Offline RL

7 статей

⚖ Методы Offline RL: от имитации к оптимизации стратегий

Stanford Online · 08.12.25 · 4,9 тыс. просм.

🧠 Стэнфордский курс CS234: принципы офлайн-RL и преодоление неопределенности

Stanford Online · 30.10.24 · 6,7 тыс. просм.

🤖 Сергей Левин об эволюции обучения с подкреплением: от «бандитов» в ChatGPT до роботов-трансформеров

The TWIML AI Podcast · 16.01.23 · 9,9 тыс. просм.

🧠 Авторы ChibiT о переносе знаний из текстов Wikipedia в Offline RL

Yannic Kilcher · 28.02.22 · 4,4 тыс. просм.

🧠 Как предобучение трансформеров на Википедии помогает в обучении роботов

Yannic Kilcher · 26.02.22 · 12 тыс. просм.

🤖 Как превратить обучение с подкреплением в задачу для GPT: разбор Decision Transformer

Yannic Kilcher · 05.06.21 · 69,7 тыс. просм.

🤖 Пессимизм как стратегия: Аравинд Раджесваран о безопасности офлайн-обучения ИИ

The TWIML AI Podcast · 05.01.21 · 830 просм.